Cerrando el bucle del razonamiento latente con reconstrucción en tiempo de prueba
Descubre cómo ReLAT cierra el bucle del razonamiento latente usando reconstrucción en tiempo de prueba, mejorando precisión en matemáticas un 73.3% en AIME 2024
Descubre cómo ReLAT cierra el bucle del razonamiento latente usando reconstrucción en tiempo de prueba, mejorando precisión en matemáticas un 73.3% en AIME 2024
Descubre cómo los grandes modelos de lenguaje muestran una fuerte preferencia por Python y NumPy, incluso cuando no son óptimos. Un estudio revela sesgos en la generación de código.
Descubre cómo Microskill reduce tokens un 90%, duplica compilaciones y elimina violaciones arquitectónicas, con evolución autónoma.
NF-CoT: razonamiento latente con flujos normalizadores para código eficiente y preciso. Supera a la cadena de pensamiento tradicional.
Evalúa CodegenBench: la capacidad de los LLMs para código eficiente en CPU x86, Sunway y Kunpeng. Resultados y limitaciones en arquitecturas especializadas.
Descubre cómo señales sutiles en prompts dirigen la elección de algoritmo en LLM, afectando rendimiento y seguridad. Basado en 46,535 experimentos.
Descubre cómo los LLMs traducen requisitos de misión en código de optimización de trayectorias para misiones espaciales más seguras y eficientes.
OckBench mide eficiencia de tokens en razonamiento y código. Hasta 5x de diferencia en tokens con misma precisión. Optimiza costos y latencia.
Descubre cómo Wasmer utilizó Codex para crear un runtime Node.js edge, logrando un desarrollo 20x más rápido y lanzando en semanas en lugar de meses.
Descubre EvoTrainer, un marco que coevoluciona políticas LLM y arneses de entrenamiento para superar al RL humano en tareas complejas de software.
¿Cómo detectan los LLMs sus carencias al usar APIs? NovelAPIBench ofrece un diagnóstico detallado en 6 categorías. Aprende qué funciona mejor.
Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.
Descubre cómo Tree-like Self-Play mejora la seguridad en código generado por IA, reduciendo vulnerabilidades en un 24.5% y transfiriendo principios entre lenguajes.
Descubre TurtleAI, el benchmark que evalúa modelos multimodales en programación visual con Turtle Graphics. Muestra fallos y cómo el ajuste fino mejora un 20%.
Descubre cómo Aletheia revela la receta óptima para entrenar verificadores de código según la escala del modelo. Ahorra costos sin sacrificar precisión.
Descubre MPMWorlds, un dataset de simulaciones físicas con el Método de Puntos Materiales. Comparamos generación de código y difusión de video para inferir y extrapolar dinámicas. ¡Lee más!
Descubre cómo la IA permite a atacantes sin conocimientos técnicos generar malware y evadir la ciberseguridad, poniendo fin a la divulgación responsable.
WebIGBench evalúa MLLMs en generar código de páginas web con interacciones complejas. Descubre los resultados y límites actuales. ¡Lee más!
¿Añadir más agentes a un pipeline de LLM mejora el código? Un estudio con 1,968 observaciones revela que la complejidad estructural se duplica sin ganancia en precisión.
CodeGolf Bench: benchmark dinámico para evaluar LLMs en generación de código conciso en 60 lenguajes. Modelos de razonamiento lideran en eficiencia.